从GPU到ImageNet,两位硅谷华人改变了AI发展史 | 总编专栏
本文是《环球科学》总编、社长陈宗周先生撰写的系列专栏“AI传奇”的第四回。通过该专栏,陈宗周先生将带领我们回顾AI在过去60年走过的风风雨雨,也前瞻AI将如何塑造人类社会的未来。
对专栏有任何建议和意见、对AI的历史和发展有任何问题,欢迎在评论区留言,陈宗周先生会亲自回复一些重要的问题,并有可能通过直播的方式,与读者朋友一起讨论AI的历史与未来。
陈宗周是《环球科学》杂志社社长,《电脑报》创始人。
深度学习迅速成为统治AI的最热门技术,除在思想和算法上有重大突破之外,它诞生时的计算环境与信息环境也有极大变化。深度学习生逢其时,命运之神终于眷顾欣顿。
深度学习是机器学习领域的分支学科,而机器学习(Machine Learning, ML)这门AI中的交叉学科,历史与AI同样悠久。机器学习思路是让计算机自动学习相关知识并解决实际问题。实现机器学习有很多方法,深度学习即深度神经网络(DNN,Deep Neural Networks)是其中重要的方法之一。
AI、机器学习和深度学习之间的关系,可以这样简单概括:AI是目的,机器学习是方向,深度学习是路径。
深度神经网络
机器学习、神经网络都不是新东西,虽然严格说深度学习也不是新东西,但它在2006年被欣顿等重新包装推出时,的确有很多创造性的新思想和算法,让机器学习焕然一新。但是,AI的历史告诉我们,不是只有好算法就能成功。
比如,深度学习用统计学方法巧妙处理深度神经网络数据的权重,把概率上相对近似度高的数据合并处理,大大降低了数据的维数,也就是降低了复杂度。由于这项关键技术,欣顿把自己构建的深度神经网络也称之为深度置信网络。但是,即使大大降低了数据的维数,涉及的数据和计算量依然惊人。
神经网络模仿人的大脑,用学习的方法获取准确知识并用之解决问题。最初的神经网络只有单层,这样简单的神经网络当然不能实用。由于人脑的学习过程实际上是分层进行的,人工神经网络后来又发展成多层神经网络,在输入层和输出层之间加上隐层,这就是三层神经网络。隐层还可以不断增加,达几层、几十层或者更多。夺得2015年ImageNet图像识别竞赛冠军的微软ResNet系统,就是 152 层的深度神经网络。
深度神经网络可以使学习一层层深入,这让深度神经网络或深度网络有时也成为深度学习的代名词。从常识上看,有深度固然好,但随着神经网络层数增加,神经网络会越来越复杂,计算量变得无比巨大。
又如,深度学习中涉及到的数据需求,也会随着深度神经网络系统规模的增加而大大增加。
就像人类学习需要有各种学习材料、学习场景一样,机器学习也需要这些,只不过机器需要的学习材料、情景都必须数据化。
也像人类学习可以分为有老师的学习和无老师的学习一样,机器学习可以分为监督学习和无监督学习,监督学习必须使用经过标注的数据,而无监督学习使用的数据不需经过标注。
神经网络本质上是一个数据驱动模型,需要提供数据让机器去学习,然后根据学习的结果不断调整、优化模型中的参数,达到使模型收敛,也就是达到预期学习效果,这一过程叫训练。
一个神经网络系统一般需要三个数据集:训练集、开发集和测试集。训练集规模越大、匹配度越高,训练效果也就是学习效果越好。
神经网络系统如果训练数据太少,会出现“过拟合”,也就是说学习结果太针对特定情景,不能推广。相反的,学习结果能广泛适用,则称为“泛化”。正像人类学习能举一反三是因为掌握大量知识一样,机器学习也需要大量的、多样化的数据。
形象地说,机器学习需要大量多样化的数据“喂”进机器,“喂”进数据越多,质量越好,学习效果越好。
欣顿想了很多办法来减少对监督学习的需求,因为这意味着大大减少工作量和提高训练速度。他的创新思路是把无监督学习和监督学习结合使用。先让机器自己进行无监督学习,也即自动处理没有经过标注的数据,进行逐层预训练。这使得在利用反向传播算法对网络进行全局优化之前,网络参数能达到一个好的起始点,从而在训练完成时能达到较好的局部收敛点。最后阶段是进行监督学习,即用经过标注的数据进行训练。这样大大提高了训练的速度。欣顿形象地比喻说:“想象一下小孩子,当他们学着辨认牛时,并非需要去看几百万张妈妈们标记上‘牛’的图片,他们仅仅是自己学习牛的样子,然后问到:‘这是什么?’ 妈妈会说:‘这是一头牛’,他们就学会了。”
这是深度学习巧妙的学习过程,但即使有这些发明,深度学习也必须在计算能力大大增强和海量数据出现的情况下,才能充分发挥作用。
还有,如果要使神经网络系统表现更加优秀,会涉及到一个有趣的术语,即鲁棒性(Robust),这个英语术语的音译非常传神,让人一望可知含义是粗壮、稳定。怎么提高神经网络系统的鲁棒性呢?常用的方法之一是通过人为添加一定的噪音来进行训练。就好比军人在平时训练中要增加一些恶劣场景来提高训练水平,以提高实战能力一样。在神经网络中,为提高鲁棒性来添加噪音,会增加数据量和多样性,同样提高了对计算能力的要求。
总之,被人工智能专家、日本人工智能学会伦理委员松尾丰称为AI领域五十年重大突破和一次飞跃的深度学习,就像一只雄鹰,高飞还需要计算能力和海量数据这两只强劲的翅膀。而装上这两只翅膀,两位华人发挥了很大的作用,他和她分别提供了具有强大计算能力的GPU和ImageNet大数据集。
黄仁勋与GPU
GPU生产商英伟达公司CEO黄仁勋(Jen-Hsun Huang),1963年出生于台北,1984年毕业于俄勒冈大学电机工程专业,后来在斯坦福大学取得硕士学位。
中国著名AI专家、格灵深瞳公司CEO赵勇博士这样评价:有人说是深度学习成全了英伟达的GPGPU(通用GPU),其实我认为,反而是GPGPU,成全了深度学习。
赵勇博士坚持认为:如果没有英伟达的CUDA(计算统一设备架构)平台,科学界证实深度学习巨大潜力的时间不知道还要推迟多久。更难能可贵的是,通用GPU技术使得在PC级别的计算机上进行高密度的高性能运算成本大幅降低,以至于一个普通科研人员的台式电脑都有可能部署上万个并行处理内核。这使得深度学习技术迅速地在科技界发展和普及起来。可以这么说,如果没有GPGPU,坚持研究了多年的神经网络算法的欣顿教授们,恐怕还得继续在学术界沉默不少年。
赵勇博士的说法太绝对,比较中立的说法是,深度学习和GPU互相成全,真正做到了双赢。深度学习借助GPU强大的并行计算处理能力迅速展示了自己的工程可行性和广泛应用前景,GPU又因为深度学习打开AI一个个应用新市场而同步得到大发展。
GPU,正是黄仁勋创办的英伟达(NVIDIA)公司首创。
图片来源:NVIDIA
不少人很奇怪,硅谷的这家游戏显卡公司,怎么突然在深度学习中扮演重要角色呢?这实际上也是硅谷华人黄仁勋的励志故事。他1993年创办芯片设计公司英伟达之后,一直在芯片龙头企业英特尔等的缝隙下艰难发展。虽然,1999年英伟达推出了革命性的图形芯片GeForce256,并由此发明了GPU(图形处理器,也即图形处理单元)这个词,但主要用于游戏显卡的GPU,被认为是PC产业附属的一个细分市场,前途并不广阔。
但工程师出身的黄仁勋是个极有雄心的工作狂,也是一个喜欢在实验室与科研人员研讨前沿进展、相信技术能改变一切的疯狂冒险家。所以,当英伟达首席科学家戴维·科克(David Kirk)提出要发展高性能的通用GPU时,他毫不犹豫地坚定支持,他相信身为美国工程院院士的科克的超前判断,更何况这位科学家还领头开发出全世界最畅销的独立显卡,成为英伟达的拳头产品。
今天看来,用高性能通用GPU让个人拥有几百美元的廉价超级计算机、能支持大规模并行计算,是一个伟大的想法。但在2007年前后,英伟达情况非常不妙,一系列内外事件让公司处于水深火热之中,股价从最高37美元跌落到6美元。而且,科克设想的强大的GPU计算平台,市场需求在哪里?
在这样的背景下,黄仁勋顶住内外压力、坚定不移支持科克的近乎疯狂的项目计划。2007年英伟达推出了基于CUDA的通用GPU beta版,之后公司的所有GPU都支持这样的架构,吸引使用各种编程语言的工程师纷纷用英伟达的GPU进行开发,大大增强了GPU的开放性和通用性。
转机出现了,由于基于冯·诺依曼结构的传统CPU,并不擅长于并行计算,而GPU从一开始在底层设计时就考虑支持单指令多数据流,所以GPU大规模并行计算方面的强大能力远远高于CPU。到底高多少呢?在处理速度方面,2010年,NVIDIA 480 GPU芯片,已经达到每秒1.3万亿次浮点运算。到2015年的Titan X,更达到6.1万亿。人类首次突破万亿次浮点运算的超级计算机,1996年底才出现,价格要数百万美元。而一块高性能GPU芯片,则只要几百到一千多美元。不少专家对GPU和CPU作了比较,认为在执行特定任务时,前者速度是后者的100到300倍。
深度学习涉及到的计算,正好比较特定,主要进行高速度、大规模的矩阵运算。这样的应用场景下,擅长并行计算、计算能力强大而价格低廉的GPU,就成为最好的选择。欣顿的实验室买了一大堆GPU设备,其他的神经网络实验室也如此。随着深度学习取得巨大成功,几乎作为标配的GPU同步得到极大发展。
2016年,英伟达因为AI方面的远见而成为芯片行业的最大赢家,股价暴涨一倍多。在2017年的CES大展中,更传出英伟达可能很快超越英特尔的惊人消息。这些传言,背后是对 GPU和深度学习专用芯片未来的畅想。
欣顿们和深度学习成功了,黄仁勋和英伟达也成功了。
李飞飞与ImageNet
创建ImageNet的斯坦福大学AI实验室主任李飞飞(Fei Fei Lee),则是与深度学习密不可分的另一硅谷华人传奇。
李飞飞1976年出生于北京,父母都是知识分子。李飞飞16岁时被父母带去了美国。刚到美国日子过得非常艰难,父亲给别人修照相机,妈妈当收银员,而她一边上学一边去中国餐厅打工,全家为生计奔波。在这样的情况下,李飞飞考上普林斯顿大学物理系,获得全额奖学金。
她自称拼命三郎,上大学后依然打工,居然攒下钱为父母开了谋生的干洗店,周末回家还要在店里帮忙干活。1999年大学毕业后,她放弃华尔街10万美元年薪,选择去西藏研究藏医一年。然后,获得全新人生感悟的她,去了加州理工学院电子工程系读AI专业博士,她进校时正是AI低潮期。母亲此时不幸中风还患上癌症,学校、家庭内外,学习、科研与生活多副重担压在她身上。 “如果重新来一次,我不认为自己还能挺过来。”她事后对人这样说。
但是,华人女子李飞飞有无比强大的内心,支撑她度过艰难岁月。然后,她创造了一项项学术奇迹。从加州理工学院到斯坦福大学,她发表了超过100篇AI学术论文,33 岁获得了斯坦福大学终身教授职位,又成为该校著名的AI实验室主任。
真正使李飞飞名扬世界的,是她创建的ImageNet。我们在本连载第三回已经看到,正是由于这个图像大数据平台,深度学习走向辉煌。
图片来源:stanford
从2007年开始,ImageNet下载了近10亿张图片。这是一个无比庞大的数据集,要对这些数据进行标注,工作非常繁浩。李飞飞巧妙地在亚马逊网站土耳其机器人(Mechanical Turk)平台上,用互联网众包模式来标注这些图片。高峰期时,ImageNet是亚马逊土耳其机器人平台上最大雇主之一,来自167个国家的近5万人,用众包方式协同工作,筛选、排序、标注了近10亿张照片。
李飞飞回忆说,现在回头去看,用大数据来训练计算机算法的重要意义显而易见。但在2007年,这并不显然。在这段旅途中,她觉得自己很长一段时间都非常孤独,有同事建议她多做些对获得终身教职更有用的事。研究经费方面也一直遇到麻烦,她甚至认为可能需要重开干洗店来为ImageNet项目筹资。
2009年,ImageNet终于诞生了。这是有1500万张经过标注的图片、含22000类物品的数据库,仅仅是猫,就有超过62000只、长相姿势各异的不同品种家猫和野猫。无论在质量上还是数量上,这都是一个规模空前的数据库。只有在互联网时代,才能搜集如此多的数据;只有在互联网时代,才能用众包方式完成这样的工作;也只有在互联网时代,深度学习这样的卓越创造,才能因大数据而升华。
大数据的威力很快显示出来了,ImageNet大数据集开源,成为检验各种机器视觉AI算法的最权威平台,也成为评价AI 科研机构和科技公司AI 实力的最好竞技场,自然成为全球科技界和媒体关注的焦点。
颇有意思的是,深度学习与ImageNet也互相成全,互为造星者。2012年的ImageNet图像识别竞赛中,让计算机学习1000万张图片,然后用15万张图片进行测试,检验各种算法的识别准确率(实际上是错误率),在这样的大数据竞赛环境中,深度学习大放异彩,走上我们已经知晓的星光大道。最不跟风追求时尚的李飞飞,也成为世界闻名的硅谷科技明星。2016年11月,李飞飞加盟谷歌公司,负责谷歌云。这位总能面对挑战的科学家,又走上自己的新旅程。
目睹大数据对深度学习成功的关键性作用,松尾丰这样感慨:如果互联网网页的出现能再提早15年,也许今天硅谷的王冠就应该戴在日本的头上。他仍然在为日本的五代机而惋惜,认为如果有互联网这样能带来大数据的信息环境,五代机可能就成功了。这位日本著名AI专家的分析或许有偏颇,但也反映出大数据对于深度学习而言不可或缺。
好风凭借力,送我上青云。深度学习借助GPU和大数据两只有力的翅膀,直上云霄。
AI传奇专栏回顾:
转载请联系 newmedia@huanqiukexue.com
2017年美国NASA夏令营招募即将截止,点击了解详情。
《环球科学》启动“科学小记者“计划,为孩子提供5类培训、5大作品发表平台,点击了解详情。
点击文末阅读原文购买《天文专刊·修订版》等精彩期刊。